不会抓数据还敢来炒币,iost微博热搜数据抓取实战
最近币圈出了个项目名为IOST,号称下一代基础链,既安全又具备高扩展性,采用分片技术解决了ETH的扩容问题,大大提升了交易数据吞吐量。
一、相关数据
看下面百度指数数据(双击图片加载原图)
这还没上线多长时间,热度就足以与 BTC、ETH 相提并论。
以下为 coinmarketcap 数据,可看出,从上市后最低价格 0.02 USD(2018年1月16日),到最高 0.13 USD,短短 10 天工夫,价格翻了 6.5 倍。
看到这里,我也很绝望啊,感觉错过了几个亿。
二、信息搜集
欲了解一个项目,通常有两个途径:
1)浏览官网,看白皮书,这个专业要求过高,一般人搞不定。
2)浏览大家观点,看看别人的理解,心里先有个大致印象,然后结合专业材料进行学习,这也是适合大多数人的方法。
看别人理解,如何获取数据呢,两个方案:
1)加入相关微信群参与讨论。这是个不错方法,互动性高。但有信息不方便梳理,信噪比高,爬楼过于浪费时间的缺陷。
2)浏览主题相关微博。这种方法一是方便复制粘贴整理信息。二是有现成爬虫可用,一键抓取相关微博,便于数据分析。
下面我就给大家演示下如何抓取 iost 相关微博。
三、数据抓取
1、安装 谷歌浏览器 及 Web Scraper 插件。
2、建立 Sitemap。
3、按下图结构建立选择器。
4、抓取,导出数据 Excel ,稍事整理格式,删除不必要内容后如下图结果。
很神奇吧,是不是浏览起来方便多了?
欲进一步学习爬虫技能,请关注此公号 Web Scraper 爬虫系列教程,能让你笑着学完的爬虫课,也就它了:
再会。
【福利】
1、回复 wsdd,获取我翻译的《Web Scraper官方文档》。
2、回复 wssm,可获得 各大常见网站 Sitemap 示例,此列表还会持续更新。
3、为方便大家学习交流爬虫知识 。我建了个在线文档 「爬虫学习材料梳理」,网址:
https://shimo.im/docs/qc5HJYODsNQJcL6k/
可收藏此链接直达课程 ,并了解最新信息 。
4、我组建了一个免费微信群共同打磨爬虫技能,加我微信 wincatcher 拉你加入,一起切磋,互开脑洞。
5、回复 20180131,下载本堂课生成的微博 iost 搜索结果 Excel 表格。
您可能对以下文章也感兴趣: